The AI Consumer Index (ACE)

フロンティアAIモデルが日常的な消費者タスクを実行できるかを評価するために導入されたベンチマーク

既存のベンチマークが抽象的な推論能力や専門的な作業に焦点を当ててきたのとは対照的に、消費者のAIニーズに特化している

関連

Why Language Models Hallucinate

Citation

Benchek, Julien, et al. "The AI Consumer Index (ACE)." arXiv preprint arXiv:2512.04921 (2025).

https://arxiv.org/abs/2512.04921

License

CC BY 4.0

特徴

1. ドメイン設定：日常的な消費者活動

評価は、ショッピング、DIY、ゲーミング、フードという、4つの日常的な活動ドメインに均等に分割された400のテストケース（ACE-v1-heldout）を使用して行われます。各ケースは、そのドメインの専門家（パーソナルショッパー、シェフ、ゲーム開発者など）によって作成され、多様性を確保するためにワークフローの分類体系が開発されています。

2. 採点：Reward hacking抑制

ハードル基準 (Hurdles):

評価の初期段階で、プロンプトの核となる目標（例：要求された製品を返す、ユーザーの問題に解決策を提供する）を捉える最も重要な基準である「ハードル」基準が設定されています。このハードルをクリアしなければ、そのタスクのスコアは $0%$ となり、それ以上の加点はされません。

根拠確認（Grounding Checks）とハルシネーションペナルティ:

ShoppingとGamingのドメインでは、応答がウェブ検索の結果に基づく経験的な主張を評価する基準が多く、応答内容がウェブソースに根拠づけられているかを動的にチェックするプロセスが導入されています。

根拠確認が必要な基準（Shoppingでは74%、Gamingでは42%）で主張がウェブソースに根拠づけられていない場合（ハルシネーション）、単に不合格となるだけでなく、マイナス1点（-1）というペナルティが課されます。これは、モデルが価格などの重要な情報を捏造する傾向があり、その行為を負のスコアで罰することを意図しているためです。

普遍的な標準:

推奨された製品が複数ある場合、そのすべてが各基準の要件を満たし、根拠確認が必要な場合はすべてが根拠づけられていなければならず、一つでも根拠がない場合はその基準全体が不合格（-1点）となります。

3. ハルシネーションペナルティの効果

マイナス評価の仕組みにより、ACEはモデルが主要な目標を達成しない場合は中立（0点）、情報を捏造した場合は負のスコア（-1点）を付けるため、ハルシネーションに対する感度が高いです。実際、Shoppingドメインでは、トップモデルでさえ50%を下回るスコアとなっており、モデルが主要な情報をハルシネーションする傾向があることが示されています。

これらの特徴により、ACEは、抽象的な性能だけでなく、ウェブ検索を有効にした状態でモデルが実際の消費者の期待（明示的な期待を伝えるためにプロンプトに特定のテキストが付加される場合もある）を満たし、信頼できる情報を提供できるかを厳しく評価します。

結果

https://scrapbox.io/files/693b6174e765b03a55bfa137.png

from: Benchek, Julien, et al. "The AI Consumer Index (ACE)." arXiv preprint arXiv:2512.04921 (2025).